停止单词对于信息检索和文本分析调查自然语言处理任务非常重要。当前的工作提出了一种评估旨在自动创建技术的停止单词列表质量的方法。尽管本文提出的方法是在乌兹别克语言的自动生成的停止单词列表上测试的,但通过一些修改,可以应用于同一家族的类似语言或具有凝聚力性质的语言。由于乌兹别克语的语言属于凝集性语言的家族,因此可以解释说,语言中停止单词的自动检测比在易转语中更复杂。此外,我们通过调查如何自动分析乌兹别克斯坦文本中的停止单词的检测,将以前的工作纳入了停止单词检测的示例。这项工作致力于回答是否有一种很好的方法来评估乌兹别克文本的可用停止单词,或者是否有可能通过研究乌兹别克斯坦句子的哪个部分包含大多数停止单词,来研究的数值特征独特的单词。结果显示停止单词列表的准确性可接受。
translated by 谷歌翻译